1. Objetivo del Proyecto

El objetivo de esta actividad es realizar un estudio relacionado a los ciberataques de ransomware a empresas en diversos países del mundo entre los años 2014 al 2021, identificar si existe alguna relación entre estos, patrones de comportamiento en común, así como analizar el comportamientos de las empresas víctimas de este tipo de ataques, cuales fueron los ransomware más utilizados y los sectores de la industria más comprometidos por este tipo de ataques.

Para este trabajo se cuenta con un dataset en el que se tiene la información de las empresas víctimas de ataques de ransomware, su tamaño, revenue, país de origen, entro otros datos relevantes para este estudio.

2. Descripcion del Data set

Dataset: Ransomware Attacks.
Año: 2014 - 2021.
Descripción: Dataset el cual contiene los datos de diferentes ataques de Ransomware a empresas en un periodo de 7 años.
Repositorio del dataset: https://www.kaggle.com/shivansh002/ransomware-attacks.
Autor: OnePunchMan.

3. Descripcion de las Variables

1. empresa : Es el nombre comercial de la empresa.
2. alias : Es el sobrenombre o el identificador por el cual es más conocida la empresa.
3. desc : Es la industria nicho en la cual está ubicada la empresa.
4. sector : Es el sector en el cual se desarrolla la empresa.
5. tamano : Es el tamaño de la empresa donde 1 significa muy pequeño y 300 muy grande.
6. ingresos : Es la cantidad de ingresos percibidos al año de la empresa(Millones de Dolares).
7. ransomware_cost : Es la cantidad de dinero solicitada por el atacante por el rescate(Millones de Dolares).
8. ransomware_flag_pago : Es el estado final del ataque donde se sabe si se pagó, no pago o no hay información.
9. ransomware_anio : Es el año del ataque Ransomware.
10. ransomware_mes : Es el mes del ataque Ransomware.
11. pais : El país de la empresa.
12. hist_int : Es la historia resumida del ataque.
13. ransomware : Es el nombre del Ransomware utilizado por el atacante.
14. inicio : Es la fecha desde que se tiene registro de los ingresos de la compañía.
15. url : Es la página web de la noticia donde se puede encontrar más información del ataque.

4. Descripcion de los Ransomware

Listado de ransomware con su respectiva descripcion.

5. Procesamiento de la informacion

5.1 Carga de librerias

suppressPackageStartupMessages(library(dplyr))
suppressPackageStartupMessages(library(tidyr))
suppressPackageStartupMessages(library(readxl))
suppressPackageStartupMessages(library(plotly))
suppressPackageStartupMessages(library(forcats))
suppressPackageStartupMessages(library(scales))
suppressPackageStartupMessages(library(stringr))
suppressPackageStartupMessages(library(ggplot2))
suppressPackageStartupMessages(library(ggrepel))
suppressPackageStartupMessages(library(magrittr))
suppressPackageStartupMessages(library(kableExtra))
suppressPackageStartupMessages(library(DataExplorer))
suppressPackageStartupMessages(library(formattable))

5.2 Carga de informacion

atack_rw <- read_excel('01.Data/RansomwareAttacksV3.xlsx',sheet = 'Ransomware Attacks')
# Formateo a los nombres de las Variables
names(atack_rw) <- c("empresa", "alias", "desc", "sector", "tamano", "ingresos", "ransomware_cost", "ransomware_flag_pago", "ransomware_anio", "ransomware_mes", "pais", "hist_int", "ransomware", "inicio", "url")

5.3 Estructura del Dataset

## Rows: 599
## Columns: 15
## $ empresa              <chr> "Kaseya", "Salvation Army", "Grupo Fleury", "City~
## $ alias                <chr> NA, NA, NA, NA, NA, "Mountain Regional Water Dist~
## $ desc                 <chr> NA, NA, "Brazil's largest diagnostic company", NA~
## $ sector               <chr> "tech", "misc", "healthcare", "government", "misc~
## $ tamano               <dbl> 300, 1, 10, 1, 1, 1, 5, 1, 1, 1, 10, 10, 1, 10, 1~
## $ ingresos             <dbl> 300.0, NA, 686.0, NA, 8.5, NA, 22.0, NA, NA, NA, ~
## $ ransomware_cost      <dbl> 70.00, NA, NA, NA, NA, NA, NA, NA, NA, NA, 0.01, ~
## $ ransomware_flag_pago <chr> "unknown", "unknown", "unknown", "unknown", "unkn~
## $ ransomware_anio      <dbl> 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2~
## $ ransomware_mes       <chr> "JUL", "JUN", "JUN", "JUN", "JUN", "JUN", "APR", ~
## $ pais                 <chr> "USA", "UK", "Brazil", "Belgium", "USA", "USA", "~
## $ hist_int             <chr> "Between 800 and 1,500 businesses around the worl~
## $ ransomware           <chr> "REvil", "Not revealed", "REvil", "Ryuk", "Not re~
## $ inicio               <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N~
## $ url                  <chr> "https://techcrunch.com/2021/07/05/kaseya-hack-fl~

5.4 Tratamiento de la Data

# Removiendo Duplicados
atack_rw %<>% dplyr::distinct(empresa,.keep_all = T)

# Removiendo espacios en blanco
atack_rw %<>% mutate_if(is.character,str_trim)

# Transformado a Minusculas
atack_rw %<>% mutate_if(is.character,str_to_lower)

# Recodificando la Variable ransomware_mes
atack_rw %<>% mutate(ransomware_mes = recode(ransomware_mes,
                                            'jan'='01','feb'='02',
                                            'mar'='03','apr'='04',
                                            'may'='05','jun'='06',
                                            'jul'='07','aug'='08',
                                            'sep'='09','oct'='10',
                                            'nov'='11','dec'='12'
                                             ))

# Asignando categoria 'unknown' a los missing en la variable 'ransomware'
# atack_rw$ransomware <- ifelse(is.na(atack_rw$ransomware),'unknown',atack_rw$ransomware)

# atack_rw$ransomware <- ifelse(atack_rw$ransomware=='not revealed','unknown',atack_rw$ransomware)

# Creando variable ransomware_fecha
atack_rw$ransomware_fecha <-  as.Date(atack_rw %$% str_c(ransomware_anio,"-",ransomware_mes,"-","01")) 

5.5 Analisis de Missing en las Variables

Insights:

  • Tenemos completitud al 100% de las Variables pais,mes y año del ataque de ransomware, tamaño de la empresa, etc que nos permitiran sacar estadisticas confiables.

  • Hay un Buen Nivel de empresas con el Dato de Ingresos en total 328(93%) que podemos utilizar para categorizar a empresas con alto,medio y bajo Nivel de Ingresos.

  • Hay un bajo Nivel del Dato del costo del ransomware 246(70%) empresas, Sin embargo tenemos un 30% que podriamos utilizar para estimar el % del costo del ransomware en funcion del ingreso de la compañia.

  • Hay un bajo Nivel del Dato del inicio de la compañia 301(85%) empresas, Sin embargo tenemos un 15% que podriamos utilizar para estimar el tiempo promedio transcurrido desde que inicio operaciones la compañia y el ataque de ransomware.

6. Análisis exploratorio de los Ataques de Ransomware

Top 5 Ransomware

Ransomware Empresas_afectadas(n) Empresas_afectadas(%)
wannacry 28 7.93%
revil 25 7.08%
ryuk 19 5.38%
doppelpaymer 14 3.97%
maze 13 3.68%

7. Preguntas

7.1 ¿Cuál es el sector de la industria más atacado por ransomware en los ultimos 5 años?

7.2 ¿Cuales fueron las industrias que tuvieron un crecimiento significativo en ataques de ransomware ?

Analizando un comportamiento General y el Top 5 de Sectores.

7.1 General

7.2 Comportamiento Top 5

Insights:

  • El sector tecnologico tuvo el mayor crecimiento en los ataques en el ultimo año a pesar de que el sector gobierno fue el mas impactado.

7.3 ¿Las empresas pequeñas, medianas y grandes pagan el rescate de un ransomware?

Descripcion de los tipos de Empresas:

  • Pequeña Empresa : Menor a 1000 Millones

  • Mediana Empresa : Entre 1000 y 10,000 Millones

  • Gran Empresa : Mayor a 10,0000 Millones

Porcentaje

Tipo de Empresa Pago Ransomware No Pago Ransomware
Grande 55.56% 44.44%
Mediana 31.58% 68.42%
Pequeña 39.34% 60.66%

Insights:

  • Las grandes empresas tienen mas probabilidad de pagar ante un ataque de ransomware.

  • Las medianas y pequeñas empresas tienen mas probabilidad de no pagar ante un ataque de ransomware.

Cantidad

Tipo de Empresa Pago Ransomware No Pago Ransomware
Grande 5 4
Mediana 6 13
Pequeña 24 37

7.4 ¿Cúal ha sido la tendencia en la recompensa de ransomware en estos años?

Resultados

Insights:

  • La recompensa promedio en los 3 ultimos años tienen un comportamiento creciente.

  • La recompensa promedio obtuvo un pico en el 2017 y esto fue debido a la aparicion wannacry .

Datos

Año Recompensa Prom. N* Empresas
2016 0.74 9
2017 227.50 39
2018 5.03 15
2019 5.03 28
2020 15.02 121

7.5 ¿Cuál es el sector de industria que más ha pagado por rescate de ransomware?

Insights:

  • Los 2 Sectores que mas pagaron fueron Finanzas, energia y marcan una gran diferencia con respecto al sector Tecnologico(Top 3).

7.6 ¿Las empresas con altos ingresos han sido más afectadas por ataques de ransomware?

Insights:

  • No, las empresas pequeñas fueron las mas afectadas en el periodo de tiempo 2014-2021.

7.7 ¿En qué meses ocurre con mayor frecuencia ataques de ransomware?

Insights:

  • Los Meses con mayor cantidad de ataques ocurre en Mayo y Noviembre.

  • Se observa que antes de los meses 6(Jun) y 12(Dic) el nivel de ataques sigue una tendencia creciente, llegando a su pico 1 mes antes.

7.8 ¿De qué país son las empresas más atacadas con ransomware?

8. Conclusiones

  • Wannacry fue el ransomware que mas afecto a las empresas a nivel mundial.

  • El pico de Mayo 2017 corresponde a la aparicion de wannacry, ademas que ese año es conocido como el año del Ransomware.

  • El top 3 de sectores mas atacados fueron el gobierno,tecnologico y salud.

  • El sector financiero es el que mas ha pagado en ataques de ransomware.

  • El sector que obtuvo un incremento sustancial en ataques de ransomware fue el tecnologico de 2019-2020.

  • Las empresas grandes son mas probables a efectuar el pago ante un ataque de ransomware.

  • USA es el mas pais mas atacado por ransomware seguido por Reino Unido,canada y australia.